モデル選定

Common Voiceデータセット

# Common Voiceデータセット

Whisper Kurmanji

クルド語のクルマンジ方言に特化した自動音声認識モデルで、Whisperアーキテクチャを微調整したものです。

Safetensors その他

Whisper Small Ta

このモデルは、OpenAIのWhisper Smallをタミル語のCommon Voice 17.0データセットでファインチューニングした音声認識モデルで、単語誤り率(WER)は43.23%です。

Transformers その他

Whisper Small Fr

これはフランス語データセットでファインチューニングされたWhisper-small音声認識モデルで、単語誤り率がベースラインモデルに比べて6.793ポイント低下しています。

Transformers フランス語

Whisper Base Pl

OpenAI Whisper-baseモデルをポーランド語Common Voice 17.0データセットでファインチューニングした音声認識モデル

Transformers その他

Vlzcrz Whisper Small Japanese 2

openai/whisper-smallをCommon Voice 17.0データセットでファインチューニングした日本語音声認識モデル

Transformers 日本語

Whisper Large V3 Cantonese

Whisper v3を微調整した広東語自動音声認識モデル、Common Voice 17データセットで訓練

Transformers その他

Finetuned Whisper Mr

simran14/mr-model-hを基に、Common Voice 17.0マラーティー語データセットでファインチューニングされたWhisper小型音声認識モデル

Transformers その他

Wav2vec2 Large Xls R 300m Amharic Demo Colab

facebook/wav2vec2-xls-r-300mをcommon_voice_16_1データセットでファインチューニングしたアムハラ語音声認識モデル

Whisper Large V3 Japanese 4k Steps

openai/whisper-large-v3をベースにCommon Voice 16.1日本語データセットでファインチューニングした音声認識モデル、4000ステップ訓練

Transformers 日本語

Wav2vec2 Large Xls R 300m Albanian Colab

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voice_albanianデータセットで微調整した音声処理モデルで、アルバニア語関連のタスクに適しています。

Wav2vec2 Large Xlsr Mvc Swahili

このモデルはfacebook/wav2vec2-large-xlsr-53をベースにファインチューニングしたバージョンで、スワヒリ語（Swahili）の自動音声認識タスク専用に設計されています。

Transformers その他

Whisper Small Dv

OpenAI Whisper-smallモデルをファインチューニングしたディベヒ語(モルディブの公用語)自動音声認識モデル、Common Voice 13データセットでトレーニング

Transformers その他

Whisper Small Fa

HezarチームがCommon Voiceデータセットのペルシア語部分を基に微調整したWhisper (small) モデルで、自動音声認識タスクに使用できます。

音声認識その他

Tts Thai Last Step

これはTacotron2アーキテクチャに基づくタイ語テキスト音声変換モデルで、修正されたCommon Voiceタイ語データセットでトレーニングされ、音声は加工されて元の特徴を保持していません。

音声合成その他

Tacotron2アーキテクチャに基づくタイ語テキスト音声変換モデルで、修正されたCommon Voiceタイ語データセットを使用してトレーニングされています

音声合成その他

これはWhisper smallアーキテクチャに基づくベンガル語自動音声認識モデルで、約400時間のMozilla Common Voiceデータセットでファインチューニングされ、単語誤り率4.58%を達成

bangla-speech-processing

Whisper Large Persian

Whisperアーキテクチャに基づくペルシャ語自動音声認識モデル、Common Voice 11.0ペルシャ語データセットでファインチューニング

Transformers その他

Whisper Large V2 Kazakh

このモデルはOpenAIのWhisper Large V2をカザフ語Common Voice 11.0データセットでファインチューニングした音声認識モデルです

Transformers その他

Whisper Tiny Es

OpenAI Whisper-tinyモデルをスペイン語データセットで微調整した音声認識モデル

Transformers スペイン語

Exp W2v2t Zh Cn Wavlm S596

microsoft/wavlm-largeモデルを基にファインチューニングした中国語音声認識モデルで、簡体字中国語をサポートし、Common Voice 7.0 (zh-CN)データセットでトレーニングされています。

Exp W2v2t Fa Hubert S801

facebook/hubert-large-ll60kモデルをファインチューニングしたペルシャ語自動音声認識モデルで、Common Voice 7.0ペルシャ語データセットを使用してトレーニングされました。

Transformers その他

Exp W2v2t Sv Se Wavlm S42

microsoft/wavlm-largeをベースに微調整されたスウェーデン語自動音声認識モデルで、16kHzサンプリングレートの音声入力に適しています。

Exp W2v2t It Wavlm S895

microsoft/wavlm-largeモデルを基にファインチューニングしたイタリア語自動音声認識モデルで、Common Voice 7.0イタリア語データセットでトレーニングされています。

Transformers その他

Exp W2v2t It No Pretraining S842

ランダム初期化されたwav2vec2モデルを基にファインチューニングを行い、イタリア語音声認識タスク用に開発されました。トレーニングデータにはCommon Voice 7.0（イタリア語）のトレーニングセット分割部分を使用しています。

Transformers その他

Exp W2v2t It Xlsr 53 S387

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたイタリア語自動音声認識モデルで、Common Voice 7.0イタリア語データセットでトレーニングされています。

Transformers その他

Exp W2v2t It Wav2vec2 S609

facebook/wav2vec2-large-lv60モデルをベースにファインチューニングしたイタリア語自動音声認識モデル、Common Voice 7.0イタリア語データセットでトレーニング済み。

Transformers その他

Exp W2v2t Ja Xlsr 53 S109

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングした日本語自動音声認識モデル、Common Voice 7.0日本語データセットで学習

Transformers 日本語

Exp W2v2t Th Hubert S533

facebook/hubert-large-ll60kをベースにファインチューニングしたタイ語音声認識モデル、トレーニングデータはCommon Voice 7.0から取得

Transformers その他

Exp W2v2t En Vp Nl S281

facebook/wav2vec2-large-nl-voxpopuliモデルを基に微調整した英語音声認識モデルで、Common Voice 7.0トレーニングセットを使用して学習されています。

Transformers 英語

Wav2vec2 Large Xls R 300m Hindi Epochs15 Colab

これはfacebook/wav2vec2-xls-r-300mモデルをcommon_voiceデータセットで微調整した音声認識モデルで、ヒンディー語をサポートしています。

Wav2vec2 Large Xls R 300m Tamil Colab

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングしたタミル語音声認識モデルです

Model Facebookptbrlarge

Facebookのwav2vec2-large-xlsr-53-portugueseモデルをcommon_voiceデータセットでファインチューニングしたブラジルポルトガル語音声認識モデル

Wav2vec2 Base Common Voice 50p Persian Colab

このモデルはfacebook/wav2vec2-baseをペルシア語データセットでファインチューニングした音声認識モデルで、ペルシア語音声からテキストへの変換タスクをサポートします。

Wav2vec2 Base Common Voice Persian Colab

このモデルはfacebook/wav2vec2-baseをペルシア語データセットでファインチューニングした音声認識モデルで、主にペルシア語音声からテキストへの変換タスクに使用されます。

Wav2vec2 Common Voice Tr Demo Dist

このモデルは、facebook/wav2vec2-large-xlsr-53をCOMMON_VOICE - TRトルコ語データセットでファインチューニングした自動音声認識(ASR)モデルで、評価セットで0.3242の単語誤り率を達成しました。

Transformers その他

Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 5

これはwav2vec2アーキテクチャに基づくトルコ語音声認識モデルで、Common Voiceデータセットでファインチューニングされ、単語誤り率(WER)は0.3634です。

Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 4

このモデルはFacebookのwav2vec2-xls-r-300mモデルを基に、common_voiceトルコ語データセットでファインチューニングされた音声認識モデルです。

Wav2vec2 Xls R 300m Mr Cv9 With Lm

Facebook XLS-R-300Mモデルをマラーティー語音声データセットでファインチューニングした自動音声認識モデル

Transformers その他

Wav2vec2 Xls R 300m Ur Cv9 With Lm

このモデルはfacebook/wav2vec2-xls-r-300mをウルドゥー語音声データセットでファインチューニングした自動音声認識(ASR)モデルです

Transformers その他

Common Voice Lithuanian Fairseq

Common Voiceデータセットでトレーニングされたリトアニア語自動音声認識モデルで、wav2vec2アーキテクチャとfairseqフレームワークを使用しています。

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase